## [1] "C/C/C/C/C/en_US.UTF-8"
## Registered S3 methods overwritten by 'ggplot2':
##   method         from 
##   [.quosures     rlang
##   c.quosures     rlang
##   print.quosures rlang
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
## 
## Attaching package: 'GGally'
## The following object is masked from 'package:dplyr':
## 
##     nasa
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000
这份报告探索了一个包含1599条红酒质量和其属性的数据集。本次项目目标是了解那些化学成分影响红葡萄酒的品质。
有1599个酒的样本,13个特征:其中X为红葡萄酒编号,11个红葡萄酒理化特征(固定酸、挥发性酸、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、pH值,硫酸盐和酒精),另外1个为红酒质量。

1 Univariate analysis

1.0.1 探索样本变量中的固定酸分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90

红酒固定酸的含量集中在7-8g / dm^3之间,成正偏态分布

1.0.2 探索样本变量中的挥发性酸分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

红酒挥发酸的含量集中在0.52g / dm^3,呈现右偏态分布.

#3.探索样本变量中的柠檬酸分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

红酒中柠檬酸的含量集中在0.26g / dm^3,整体呈现出比较分散的状态

1.0.3 探索样本变量中的残糖分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500

红酒中残糖的含量集中在2.20g / dm^3,呈现出正偏态分布

1.0.4 探索样本变量中的氯化物分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

红酒中氯化物的含量集中在0.079g / dm^3,大致呈现出正态分布。

1.0.5 探索样本变量中的酒中带硫元素的离子分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

红酒中酒中带硫元素的离子的含量集中在14mg / dm^3,大致呈现出正偏态分布。

1.0.6 探索样本变量中的密度分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

红酒中密度集中在14g / dm^3,大致呈现出正偏态分布。

1.0.7 探索样本变量中的pH分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

红酒中pH值集中在3.31,大致呈现出正偏态分布。

1.0.8 探索样本变量中的硫酸盐分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000

红酒的的硫酸盐含量集中在0.62g / dm^3,大正呈现出正偏态分布

1.0.9 探索样本变量中的酒精含量分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

红酒中酒精的含量集中在10.2% by volume,大致呈现出正偏态分布

1.0.10 探索样本变量中的质量评分分布情况

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

红酒质量的评分,75%的评分小于6分,最低值为3分,最高值为8分,平均值为5.636分,分数集中在5-6分之间

2 Bivariate Plots Section

2.0.1 探索柠檬酸和质量的关系

#由图可知,柠檬酸和红酒的质量呈现正相关,柠檬酸的含量越高,红酒的质量越高。

2.0.2 探索密度和质量的关系

#由图可知,密度与红酒的质量大致呈现负相关,质量越高,密度越小,但密度对红酒质量的影响较小。

2.0.3 探索酒精和质量的关系。

#由上图可知,酒精浓度与红酒质量呈正相关,特别是5-8分质量的红酒中,质量越高的酒,酒精含量越高。

2.0.4 探索硫酸盐和质量的关系。

#硫酸盐与红酒的质量成正相关,质量越高的红酒,硫酸盐越高。

2.0.5 探索固定酸和质量的关系

#由图可知,发现固定酸于红酒质量不具有明显关系。

2.0.6 探索残糖和红酒质量的关系。

#由图可知,发现残留糖分对红酒的质量影响不大。

3 Multivariate Plots Section

3.0.1 探索柠檬酸、酒精和质量的关系

#由图可知,发现在柠檬酸一定下,降低酒精浓度,有助于提升质量。

3.0.2 探索柠檬酸、硫酸盐和质量的关系

#无法得出有意义结论

3.0.3 探索硫酸盐、酒精和红酒质量的关系

#在酒精浓度一定时,提高硫酸盐的浓度有助于提高红酒质量。

3.0.4 探索密度、酒精和质量的关系。

#由图可知,酒精浓度一定的时候,降低密度有助于提升红酒品质。

3.0.5 探索密度、硫酸盐和质量的关系

#无法得出有效结论

3.0.6 探索密度、硫酸盐和质量的关系

#由图可知,不能得出有效结论

3.0.7 探索密度、柠檬酸和质量的关系

#由图可知,发现在柠檬酸小于0.75时,降低密度有助于提高红酒质量.

4 Final Plots and Summary

4.0.1 Plot One:探索酒精含量

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

###Description Plot One #酒精含量呈正偏态分布。

4.0.2 Plot two:探索柠檬酸与酒精质量的关系

4.0.3 Description Plot Two

#柠檬酸与葡萄酒质量呈正相关

4.0.4 Plot Three: 探索柠檬酸、密度与红酒质量的关系

4.0.5 Description Plot Three:在柠檬酸小于0.75时,降低密度有助于提高酒精质量.

4.0.6 Reflection

#本项目,主要探索葡萄酒里的化学成分对葡萄酒质量的影响。单变量分析时,对各变量都进行了探索,ph,密度,固定酸度,挥发性酸度,硫酸盐,酒精。后来双变量分析时越来越清晰,了解到柠檬酸与葡萄酒质量正相关系关,最后多变量分析时,了解到酒精浓度一定的时候,降低密度有助于提升红酒品质。

#挫折或成功:开始分析会没有方向没尝试了很多变量关系,对于这些变量的对于红酒的作用也不是很了解,所以存在盲目猜测的状态。但是再后来收集资料的过程中总结出,不同变量的作用,对探索红酒质量的项目分析有了更多的了解。

#fixed.acidity:该变量指的是葡萄酒中的固定或者非挥发性酸度

#volatile.acidity:挥发酸,葡萄酒中的醋酸含量过高,会导致醋的味道不愉快。

#citric.acid:柠檬酸,柠檬酸含量小,能给葡萄酒增添新鲜感和风味。

#residual.sugar:剩余糖分,发酵结束后剩下的糖分,很少发现低于1克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。

#chlorides:酒中的盐量。

#free.sulfur.dioxide:酒中带硫元素的离子,它可以防止微生物的生长和葡萄酒的氧化。

#total.sulfur.dioxide:二氧化硫,低浓度时检测不到,当浓度超过50 ppm时用鼻子可以闻到。

#density:密度,大致接近于水,具体取决于酒精和糖的含量。

#pH:用于描述酒的酸碱度。

#sulphates:硫酸盐,葡萄酒的添加剂,用于控制二氧化硫比例。

#alcohol:酒中的酒精浓度。

#quality:酒的质量,从0到10分不等。

#建议:在探究红酒质量过程中,应该更多的加入对不同指标的理解,特别是不同指标在红酒中的具体功能与作用。这样分析会更加有方向性。另外需要注意的是,这个质量的评分是有主观性的,因此结论不完全代表影响葡萄酒质量的真实原因。加入设计评分不同指标标准,会更好。当然,横向比较也可以尝试,例如影响白酒、白葡萄酒等类型酒酒品质量的因素,也有助于对本次红酒质量的分析。

save(df,file=‘~/Desktop/R-analysis.R’)